データサイエンティストサミット 2013に参加してきた
『ビッグデータ』と共に昨今業界を賑わせているフレーズとして『データサイエンティスト』というものがあります。用語の意味や解説などは下記リンクなどを参考頂くとして、世間の見方としては様々ある模様です。AWS等クラウド全盛の昨今、ビッグデータ及びデータサイエンティストと呼ばれる役割や要素がその重要さを増しているのはまず間違いないと言って良いでしょう。
- データサイエンス - Wikipedia
- 一般社団法人 データサイエンティスト協会
- 脚光浴びるデータ・サイエンティストってどんな人? : 日経BizGate
- 「ITエンジニアのためのデータサイエンティスト養成講座」最新記事一覧 - ITmedia Keywords
- 「あいつ・・・なにやってるの?」データサイエンティストを殺す4つの環境 - dataminer.me
- 今世紀最も熱い職業「データサイエンティスト」とは - NAVER まとめ
- 『データサイエンティスト』橋本大也・著 vol.3323 | 「ビジネスブックマラソン」バックナンバーズ
- SEXY LITTLE NUMBERS | データ・サイエンティストに学ぶ「分析力」
- データサイエンティストのつくり方
- 5年後のデータサイエンティスト
そんな中、そのものスバリな『データサイエンティストサミット 2013』というイベントが開催される事を知り、参加して来ました。開催会場はベルサール神田@小川町。ビル内2Fのフロアを利用して計2セッション同時並行で行われていました。
講演内容は写真撮影等禁止でしたので、ここからは文字ベースでお送りしたいと思います。聴講したセッションのうち、特に興味深かった内容のものについて以下メモ。
A-1 事業現場からのデータサイエンスの手法の紹介(仮)
- モデレータ : 鈴木 良介氏〔野村総合研究所〕
- 河本 薫氏〔大阪ガス〕
- 北村 慎也氏〔帝国データバンク〕
- 西郷 彰氏〔リクルートテクノロジーズ〕
こちらのセッションは途中から参加。
- データサイエンティストとは?
- 海外の募集要項見ても、レベルは細かく高い。スペシャリティを複数持ち合わせている事が求められている。こんな人、いないんじゃないかというような...
- 人材定義を行い始める。分析スキル、基盤運用スキル、プログラミングスキルなど。
- ビジネスを理解してどこに適用すればレバレッジするのか、その辺をコミュニケーションしながら進められるのか。
- 現状なかなかいない:得意不得意をカバーし合い、チームで三位一体で取り組む事で対応。
- データの「整理整頓」
- 昔はテープ。出来るだけ小さな容量の中で如何に効率よく収めるか、分類するのかについて時間を掛けた。
- 財務データを整理。1980年代から企業情報をデータ化しはじめた。(財務、企業属性、企業・倒産等)→時系列で活用。
- 次第に色々なものが見えて来た。成長企業と経営者、成長産業と地域、空洞化と中小企業
- 2008園から取引データをU・ID化。それまではデータを人間が読んでいた。→ネットワークが構築、関係性が出来てきた。潮流、流れが分かるようになった。
- 整理整頓して行く中で取引データを構造化したDBを構築。
- BtoBで75万件、(企業)、450万件(取引データ)
- 企業間の取引データを連携し、与信やお得意様等の情報を踏まえた企業間取引データを再構築。
- サプライチェーン構築
- 取引ネットワークの定義
- 企業:規模、業績、属性
- 取引:有無、取引高(+推定値)、距離
- 様々な関係性を取り出す事が出来、取引ネットワークの"力の伝わり方"、"カネの流れ"も見えてくる。
- 取引ネットワークは力の伝わり方の骨組み/取引データを構造化したDBを用いて新たな気づきを見つける。
- 昔はテープ。出来るだけ小さな容量の中で如何に効率よく収めるか、分類するのかについて時間を掛けた。
- デジタルの世界を調査する:構造化されていれば、パターンやシグナル(ノイズ)が分かるのではないか。
- 企業の取引データを構造化する事で企業の戦略や産業の動きが分かるのではないか。
- 『コネクターハブ』:NHKの番組で取り上げたもの。デジタルの世界を調査。
- 番組『NHK震災ビッグデータ2』、実はあの『半沢直樹』の番組で、視聴率はイマイチだったらしい...(笑)
- 震災前の取引22万本→震災後失われた取引2万本。企業の問合せが多かった
- やったことは、骨組みの上にデータを流し込み、誰が影響力を持つのかを見た。
- 分析結果が使われ始めている分野
- 決定プロセスとしての用途:より効果が期待出来る支援先、マッチング先
- 評価プロセスとしての用途:政策効果評価、予測効果とのギャップ効果
- 史上最もデータが集まった震災、経済復興支援の決め手がない中でコネクター・ハブに期待が集まる。
※番組に関するリンクやメモ等はこちら。オンデマンドですので視聴には料金が掛かります。
- NHKオンデマンド | NHKスペシャル “いのちの記録”を未来へ~震災ビッグデータ
- NHKオンデマンド | NHKスペシャル “いのちの記録”を未来へ~震災ビッグデータ
- 「NHKスペシャル」にTDBが提供した企業取引データの可能性とは | 帝国データバンク[TDB]
講演がひと通り終わった後は4者間で質疑応答タイムに。
Q.求められる要素、逆にデータサイエンティストから求めたい事は?
- 分析、何に使いたいんですか?精度や内容など明確にして欲しい。
- 分析はやってみないと分からない事が多い、バックグラウンドを整理して持って来て欲しい。
- データ分析は、過去のことしか語らない。将来のことしか語らない。前提条件に基づく分析、分析した結果を数字だけ見て意思決定するのはまずい。
- どうやってその数字が出て来たのか、背景を理解する姿勢を持って欲しい。
- モニタリングしたいと思っている項目がそもそもログされてなく、取れない事もあった。
- 事業側にどういう風に関わって欲しいか:事業側にも専門部隊を受け止めてくれる、知識が追いついてくれる事を期待したい。概観を把握してくれる人が重要。
- 担当者を介して色々なオーダーが挙がってくる。めちゃくちゃくる。でもどれからやる?優先順位をつけて欲しい。目的を明確にして欲しい。ビジネス効果を一緒に考えたい。
Q.経営層をどうやって口説き落とすか?
- 偉い人が聞き入れてくれるタイミングを見極める。中期経営計画を作成するタイミング等で市場データ、競合データ、などなどを入れればあなたの市場をここまで伸ばせる、影響を与える事が出来るんじゃないですか?と出す。タイミング大事。判断をされる時にデータを差し出し提案する。
- ビッグデータ=バズワード?社長さんや政治家等も口にするような状況であれば、波に乗るのもひとつのタクティクスなのでは。
Q.人材の獲得、育成について
- 人が足りん!な状況。筋の良さそうな人を育成 or 外部委託をするにしても良い判断材料を。
- 初期の段階で何をしているか?を話そう。最初は人が居なかった。1〜2とかその程度。3年位経つと、経営者に説明し、バズワードなども交えながら次第に強化。
- 「人繋がり」で強化。ネットワーキングの場で知り合いになったり。
- ネット企業:新卒系、学会等に足を運ぶ事も。
- 育成:まだ全然。ベーシックに分析のスキル。SQL等の基礎技術を学習してもらう。難しいのはどうやってビジネス課題を落としこんで実務に当てはめていくか。オペレーション、推進していくか。OJTしか無いんじゃないか。体系化したい。
A-3 統計分析を勝ちパターンにつなぐ戦略【ニ部構成】
【一部】ヤフー・ジャパンの“爆速”経営を支えるデータ分析
小間 基裕氏 〔ヤフー〕
- デジタルデータ活用の方法について
- ビッグデータ!本当に流行ってますね。
- amazon/google/fb 価値を上げているような企業、オフラインだとCCC/LOWSON/KOMATSUなど。
- Yahoo Japanはどうなのか?データカンパニーなのか?→Yes!
- 検索キーワードの入力補助:ビッグデータを変換した例。ターゲティング広告、レコメンデーション等も利用。
- 徹底的なライブテスト:縦22ピクセル→28ピクセルで0.6%売上げ増、5億円の売上げ増に。
- 6ピクセルで4.8億円の改善に繋がったーービッグデータサイエンティストが語る「ビジネスへの活用」 #bdash - THE BRIDGE
- +1%のカイゼン
- 工業製品にはないウェブサービスならではの特性を活かす。爆速でデザイン変更、爆速で反映。
- ユーザーファーストを、データの利活用で実現:膨大なユーザー数とアクセス数/ページビューはお客様の意図そのもの。
- +1%の競争優位を築く:小さな差だが、勝負を決めるのはこの1%。すなわち、Yahoo!=データカンパニー。
- Volume:2人に1人以上のお客様が我々のページをブラウザで見ている。6100万/日
- Velocity:秒間50000アクセス
- Variety:様々な100以上のサービスを展開。
- マルチビッグデータカンパニーへ。
- 爆速経営をデータで支える。
- 認知の爆速化:何かが起こってからすぐに知らせたい。1周間では遅い
- 速報メール(当たり前だが大切)
- 情報ダッシュボード(データソースがわかれているとダメ、また社外からのアクセス出来るのもコツ)
- 萌芽検知(マルチビッグデータを活用した、未来予測へのチャレンジ)
- 流行っていないサービス:横ばい
- 流行っているサービス:初期に傾きを見つける。
- リアルタイム検索+検索キーワード→日本でのつぶやき、海外でのつぶやき
- ニュースと併せて→ニュース記事での言及...等
- ※過去だけでなく現実をリアルタイムに知る。未来を予測する。
- 意思決定の爆速化:
- ABテスト
- アドホック集計
- ※意思決定を最速化すべくデータで徹底支援。
- 実行の爆速化:
- Hadoopクラスタ
- Teradataシステム
- カスタマイズ・連結可能なデータフィード
- 認知の爆速化:何かが起こってからすぐに知らせたい。1周間では遅い
全経営フェーズをデータのチカラ爆速化。
- 収集・加工・サービスのインフラ
- アクセス解析システム
- 効果測定システム
- データフィード
- レコメンデーション
- 収集:
- アクセスログ、広告ログ等
- Hadpopクラスタ3500台(日本最大急)、Teradata(ヘビーユーザー日本最大級)
- 技術:
- 重要なのはシンプルさ
- 全てのデータ項目を処理対象にしない(コストに拘る)
- 全てのデータ要素を処理対象にする(クオリティにこだわる)
- ※見立てを最初に立てる事。サンプリングはしない。ロングデールにも拘る。
4つめのV、「Value」が大切。
- データサイエンティストとは?
- 私自身、解答を持ちあわせてはいません。どの『データ***』という呼び名も違う気がする。データスペシャリスト?
- シェフみたいなもの:お客様を満足させるソリューションをデータで提供。
- マシン、ストレージ、ネットワーク、食材…
- お客さまが何を食べたいか、聞く。=ビジネス・データ(システム側)の人間の協業。かならず協業の座組で。
- 成果の最大化
- コストの観点
- 人材育成:協業の枠に入れなさい。ビジネスノウハウの共有が出来る。もっと共有して欲しい。風を共有して欲しい。顕在化しているものだけでなく、潜在化しているニーズも掘り当てる。
- 協業チームの3つのミッション
- データアクセス:データ資産に適切な複数の手段でアクセス出来るようにする。無くてはならない。
- 最適化:データを使い倒してサービスやビジネスの最適化最大化を行う。何をやって何をやらないかを選択。
- イノベーション:データを利活用した新規サービス・ビジネスの創出。0 -> 1を実現する。ベンチャー。
- 組織を動かし、valueを出すまでやり切る意思。
- ビッグデータは預託されている。誰のものか?データはお客様のもの。あくまで預託して使わさせてもらっている。
- ビッグデータで夢を見るのは誰?まずはユーザー(お客様)。そして最終的に皆がにっこり。
【二部】「サッカー界」におけるビッグデータの変遷と活用法
杉崎 健氏 〔データスタジアム〕
- 企業紹介:データスタジアム:
- データスタジアム株式会社 | スポーツの情報をスポーツに関わる全ての方に
- データ、映像を活用、利用、配信。メディアに対する配信も行っている。
- Jリーグでビッグデータを使ってデータサポート。
- 狭い領域の中でデータをどうやって活用しているか。
サッカー界の過去:サッカーとデータの戦い
- 数字が扱われるようになってきたのは最近。
- 1863年、association football設立。
- 省略形socにer(人の意)が付けられ、"サッカー"という名前が使われるようになった。
- データの歴史:
- 1800年代後半〜1900年代後半:競技人数、フィールドルールなど
- 1900年代後半:スコア、ファール数、カード数、CK、FK、これらを用いて表彰等も行われるように。
- ご存じですか?フィールドデータのこと。フィールド=105m x 68m、ペナルティエリアも11m等、ちゃんと規格が決められている。
サッカー界の現在
現在は公式データとして集計、レベル毎(Level1:basic data/Level2:game data/Level3:team data/Level4:player data/Level5:localisation data...)に分類している。でもこれでは強くならない。
アクション項目を多く取るようになった。ゴール1つとってもチーム別、個人ごと、成功失敗….様々な切り口で取る。その数1試合で2000〜2500項目。
- データの作り方と見方
- 映像を1つずつとめて、独自の入力システムで入力。
- シュートに至るまでの軌跡図を表示。
- ビッグデータを使う:数字の大小だけで使ってしまう事は多い。
- チームとして分かる事は?
- 前からのプレsがかかっていたのか?
- 手数を掛けずにシュートまで持って行けたのか?
- 主観をビッグデータを絞り込む事で見て検証。
- データ分析で失敗する事例とは?
- 数値の大小だけで判断する。(※これは危険。)
- 数値の現象だけで判断する。
- 原因を考えずに判断する。
- ※数字が出た時に、理由を考える。どうすれば良いのかを考える。
- Jリーグクラブ=プロの目線とは。以下サイクルでビッグデータを利用。
- ゲーム分析:現象、原因、カイゼンすべき点
- プランニング
- トレーニング&コーチング
- ゲーム
- データ分析事例:
- 事例1:どんな選手?
- 遠藤選手と長谷部のパスデータ比較(6/4W杯最終予選)
- 事例2:Jクラブはどんな使い方を?
- データ分析で効果があった事例とは?
- A.選手(間)の意思統一:例:ポゼッションスタイルを続けるかどうかについての議論で効果を発揮。
- 監督:うちの企業、ボール奪われてから何秒でシュートまで持って枯れてる?
- 選手:15秒?
- 監督:7秒。そういうのはどんなケースだ?
- 選手:中盤で不用意に取られる時?
- ...みたいなやり取りの過程ででデータを使う。データに選手が納得し、結束も高まる。
- データ分析で効果があった事例とは?
- 事例3:統計的手法
- 野球のセイバーメトリクス。
- ビリー・ビーン氏:『マネーボール』が有名。
- Q.野球のセイバー〜、サッカー版はある?→A.ない。しかし現在、実験を行っています。
- Football LAB:競技性を持って分析しよう、という試み。
- 事例1:どんな選手?
サッカー界の未来
- 恐らく、スポーツ界の未来にも繋がるのでは。
- トラッキングデータ(Level 7: Tracking)...ピッチでプレーする22選手の動きに関するデータ。トラッキングシステム:AMISCO(アミスコ:フランスの会社)が例として紹介されていた。これにはデータスタジアムもパートナーとして動いているらしい。また、このシステム、昔のミサイル追尾システムを応用して選手の動きを追跡するカメラで追跡しているそう。
- Amisco
- トラッキングデータで、走行距離/スピード毎の走行距離/方向別/状況別/ポジショニング等様々な情報が分かるようになってきた。
- トラッキングデータがあると、どういう動きをしたか、どこで何の為にどの程度の速さで動いたかという点が分かる。
[swf]http://www.youtube.com/watch?v=qA4SjGjvs8E,500,350[/swf]
- 今後は、ビッグデータの深さが更に深化。L1,2 -> L3〜6 -> L7へ。
- 大分情報は得られて来たが、まだ取り切れていない部分も多い。はみ出した部分としては…3Dデータも取れるようになっていくのでは。更には筋力や体力など、フィジカルデータも。サッカーに関わらず、スポーツの分野としてもより深さと幅が広まるように。主観のみ<客観のみ<主観+客観
- 重要なのはデータの原因、現象を熟考する事。なんでそうなったのかを熟考してこそデータも生きてくる。
まとめ
という訳で『ビッグデータ』という括りで、幾つかセッションを聴講してきましたが、ビッグデータ周りに取り組む上での幾つかの示唆が得られたのは個人的には収穫でした。沢山のデータとBIツールがあれば何か見えてくるんじゃなかろうか、という偶然性を期待する事よりも、手元にある(ビッグ)データからビジネス(やある目的)を達成するために何を得たいのか、そのためにどういう分析をしたいのかというビジョンを持って臨む事でより効果的な結果が得られる点についてはなるほど確かにと思うところはありました。この点は最近購入して読んでいたBi関連書籍でも言及されていました。ビッグデータに対する時の考え方、取り組み方については他にもポイントはありそうなので色々と吸収して行きたいですね。
また、『データサイエンティスト』に求められる資質やスキルについても多岐に渡りかつレベルの高いものが求めらている訳ですが、この辺についても(ハナから条件を満たす人はそうそういないのですし)出来る部分から1個ずつ取り組んでいく事でその理想にも近づけていけるんじゃないかと思います。